|
Diese Studienarbeit untersucht Methoden zur Extraktion bilingualer
lexikalischer Informationen aus Parallelkorpora.
Es wird von Texten in der Größenordnung von einigen Millionen
Worten ausgegangen, die parallel in Deutsch und Englisch (und z.T.
in weiteren Sprachen) vorliegen. Diese Texte sind bereits für die
Verwendung der IMS-Corpus-Tools aufbereitet und auf der Ebene von
Sätzen bzw. vergleichbarer Einheiten zugeordnet. Für diese Texte
soll eine Zuordnung auf Wortebene oder auf der Ebene kleiner
syntaktischer Einheiten (z.B. Nominalphrasen) hergestellt werden.
Dabei sollen Informationen über bereits bekannte Wortpaare,
Wortartmarkierungen, morphologische Analysen sowie heuristische
Informationsquellen verwendet werden, um die Zuordnung möglichst
genau zu machen.
Ergebnis dieser Zuordnung ist die Rohform eines bilingualen
Lexikons, das jedoch noch eine beträchtliche Menge an falschen
Übersetzungshypothesen enthält. Es sollen Methoden untersucht
werden, die Qualität des Ergebnisses abzuschätzen (precision,
recall), ohne alle Hypothesen einzeln von Hand beurteilen zu
müssen.
|